4 research outputs found

    Generalizing Gaze Estimation with Weak-Supervision from Synthetic Views

    Full text link
    Developing gaze estimation models that generalize well to unseen domains and in-the-wild conditions remains a challenge with no known best solution. This is mostly due to the difficulty of acquiring ground truth data that cover the distribution of possible faces, head poses and environmental conditions that exist in the real world. In this work, we propose to train general gaze estimation models based on 3D geometry-aware gaze pseudo-annotations which we extract from arbitrary unlabelled face images, which are abundantly available in the internet. Additionally, we leverage the observation that head, body and hand pose estimation benefit from revising them as dense 3D coordinate prediction, and similarly express gaze estimation as regression of dense 3D eye meshes. We overcome the absence of compatible ground truth by fitting rigid 3D eyeballs on existing gaze datasets and design a multi-view supervision framework to balance the effect of pseudo-labels during training. We test our method in the task of gaze generalization, in which we demonstrate improvement of up to 30%30\% compared to state-of-the-art when no ground truth data are available, and up to 10%10\% when they are. The project material will become available for research purposes.Comment: 13 pages, 12 figure

    Modellering av mÀnskliga poser och former i 3D

    No full text
    The focus of this thesis is the task of 3D pose estimation while taking into consideration the shape of a person in a single image. For rendering the human pose and the body shape we use a newly proposed statistical model, the SMPL [1]. We train a neural network to estimate the shape and the pose of a person in an image. Afterwards, we use an optimization procedure to further enhance the output. the network is trained by incorporating the optimized and the predicted parameters into the loss. This approach is based on SPIN [2]. We extend this method by using a stronger optimization that is based on several views and the error is summed over all of them. The main objective of this thesis is to utilize information from multiple views. The motivation for our method is to explore whether this optimization can provide better supervision to the network. In order to verify the effectiveness of our method, we conduct several experiments and we show appealing visual results. Lastly, to make the network generalize better we train simultaneously on seven datasets and achieve comparable to even better accuracy than similar methods from related work.Fokus för denna avhandling Àr uppgiften att skatta en mÀnsklig 3D-pose ochsamtidigt ta hÀnsyn till personens form i en bild. För att rendera mÀnskligaposer och kroppsformer anvÀnder vi en nyligen föreslagen statistisk modell,SMPL [1]. Vi trÀnar ett neuralt nÀtverk för att skatta en persons pose och formi en bild. DÀrefter anvÀnder vi en optimerings-procedur för att ytterligare förbÀttradessa skattningar. NÀtverket trÀnas genom att integrera de förbÀttradeskattningarna i en mÄlfunktion tillsammans med de primitiva skattningarna.Denna strategi Àr baserad pÄ SPIN [2]. Vi utökar denna metod genom att anvÀndaen optimerings-procedur som bygger pÄ att inkorporera flera vyer ochsummera felet över alla dessa. Motivationen för vÄr metod Àr att utforska omden kan förbÀttra guidningen av nÀtverkets trÀning. För att fÄ vÄrt nÀtverk attgeneralisera bÀttre sÄ trÀnar vi pÄ sju dataset samtidigt och uppnÄr jÀmförbarnoggrannhet med liknande metoder frÄn relaterad forskning. Vi utför Àven fleraexperiment för att verifiera vÄr metods effektivitet

    Modellering av mÀnskliga poser och former i 3D

    No full text
    The focus of this thesis is the task of 3D pose estimation while taking into consideration the shape of a person in a single image. For rendering the human pose and the body shape we use a newly proposed statistical model, the SMPL [1]. We train a neural network to estimate the shape and the pose of a person in an image. Afterwards, we use an optimization procedure to further enhance the output. the network is trained by incorporating the optimized and the predicted parameters into the loss. This approach is based on SPIN [2]. We extend this method by using a stronger optimization that is based on several views and the error is summed over all of them. The main objective of this thesis is to utilize information from multiple views. The motivation for our method is to explore whether this optimization can provide better supervision to the network. In order to verify the effectiveness of our method, we conduct several experiments and we show appealing visual results. Lastly, to make the network generalize better we train simultaneously on seven datasets and achieve comparable to even better accuracy than similar methods from related work.Fokus för denna avhandling Àr uppgiften att skatta en mÀnsklig 3D-pose ochsamtidigt ta hÀnsyn till personens form i en bild. För att rendera mÀnskligaposer och kroppsformer anvÀnder vi en nyligen föreslagen statistisk modell,SMPL [1]. Vi trÀnar ett neuralt nÀtverk för att skatta en persons pose och formi en bild. DÀrefter anvÀnder vi en optimerings-procedur för att ytterligare förbÀttradessa skattningar. NÀtverket trÀnas genom att integrera de förbÀttradeskattningarna i en mÄlfunktion tillsammans med de primitiva skattningarna.Denna strategi Àr baserad pÄ SPIN [2]. Vi utökar denna metod genom att anvÀndaen optimerings-procedur som bygger pÄ att inkorporera flera vyer ochsummera felet över alla dessa. Motivationen för vÄr metod Àr att utforska omden kan förbÀttra guidningen av nÀtverkets trÀning. För att fÄ vÄrt nÀtverk attgeneralisera bÀttre sÄ trÀnar vi pÄ sju dataset samtidigt och uppnÄr jÀmförbarnoggrannhet med liknande metoder frÄn relaterad forskning. Vi utför Àven fleraexperiment för att verifiera vÄr metods effektivitet

    Modellering av mÀnskliga poser och former i 3D

    No full text
    The focus of this thesis is the task of 3D pose estimation while taking into consideration the shape of a person in a single image. For rendering the human pose and the body shape we use a newly proposed statistical model, the SMPL [1]. We train a neural network to estimate the shape and the pose of a person in an image. Afterwards, we use an optimization procedure to further enhance the output. the network is trained by incorporating the optimized and the predicted parameters into the loss. This approach is based on SPIN [2]. We extend this method by using a stronger optimization that is based on several views and the error is summed over all of them. The main objective of this thesis is to utilize information from multiple views. The motivation for our method is to explore whether this optimization can provide better supervision to the network. In order to verify the effectiveness of our method, we conduct several experiments and we show appealing visual results. Lastly, to make the network generalize better we train simultaneously on seven datasets and achieve comparable to even better accuracy than similar methods from related work.Fokus för denna avhandling Àr uppgiften att skatta en mÀnsklig 3D-pose ochsamtidigt ta hÀnsyn till personens form i en bild. För att rendera mÀnskligaposer och kroppsformer anvÀnder vi en nyligen föreslagen statistisk modell,SMPL [1]. Vi trÀnar ett neuralt nÀtverk för att skatta en persons pose och formi en bild. DÀrefter anvÀnder vi en optimerings-procedur för att ytterligare förbÀttradessa skattningar. NÀtverket trÀnas genom att integrera de förbÀttradeskattningarna i en mÄlfunktion tillsammans med de primitiva skattningarna.Denna strategi Àr baserad pÄ SPIN [2]. Vi utökar denna metod genom att anvÀndaen optimerings-procedur som bygger pÄ att inkorporera flera vyer ochsummera felet över alla dessa. Motivationen för vÄr metod Àr att utforska omden kan förbÀttra guidningen av nÀtverkets trÀning. För att fÄ vÄrt nÀtverk attgeneralisera bÀttre sÄ trÀnar vi pÄ sju dataset samtidigt och uppnÄr jÀmförbarnoggrannhet med liknande metoder frÄn relaterad forskning. Vi utför Àven fleraexperiment för att verifiera vÄr metods effektivitet
    corecore